iT邦幫忙

2023 iThome 鐵人賽

DAY 29
0
AI & Data

進入AI的世界系列 第 29

➤D-29 核心應用☞自然語言處理-5(主要演算模式1)

  • 分享至 

  • xImage
  •  

NLP主要演算模式

編碼器與解碼器模式

  1. 序列對序列的模式(Sequence to Sequence Model, Seq2Seq):
    由輸入的序列性資料(Input Sequence),產出長度「不固定」的輸出序列(Outpit Sequence)的一種系統架構。
    必須要有一種「序列對序列」,且輸出長度不受限的演算法架構來支援這種應用。
  2. 編碼器與解碼器模式:
    擁有一組編碼器、隱藏層與解碼器的一種序列對序列(Seq2Seq)的架構模式。
    • Encoder:把輸入訊息,透過深度學習最擅長的「特徵抽取」將其「壓縮成一段固定」的特徵向量,稱之為背景向量(Context Vector)。
    • Decoder:參考背景向量內的特徵訊息,接著一個字一個字的產生輸出的句子,參考①前面出現的字,同時參考②Context Vector內隱藏的向量特徵。
    • 不論輸入的X與輸出的Y長度如何,中間的隱藏特徵,或稱之為背景向量(Context Vector)都是固定的。
    • Context Vector長度固定:因CV長度固定,當短的訊息量時,壓縮較不會有問題,但長的文本要壓縮時,會損失非常多的訊息。
    • 只有一個CV無法平行處理,傳統ED Model只能產生一個CV,因此其輸出是屬於一個接著一個序列型(Sequential)處理,較沒有效率。

注意力機制(Attention Mechanism, AM)

能夠讓機器在輸出某一詞句時,直接的「聚焦」在與他「相關」的輸入數據上來記憶與處理,對於不相關沒有影響力的其他訊息,給予低權值。
AM透過另一層網路參數來學習每個字與其上下文之間的權重加成。
要生成某一輸出句子時,能根據這個已經訓練好的「對照表」對Chase快速、直接的找到要對應的中文字,而不用如傳統ED Model的CV,要在整句話從頭到尾的句向量中,慢慢依序消化分析地找出,尤其是愈長的句子,尋找速度愈慢,愈不方便。這就好像在資料庫式的書本用Index(索引)對照表可以直接找到想要的資料。

  1. 注意力機制特色與優點:
    ①聚焦 vs. 分心:只聚焦與當前要輸出的字在相關性最大的「個別」輸入訊息(圖、語音、音樂、文本),ED Model要注意上下文所有訊息,且每個訊息重要性都是一樣的,沒有分別。
    ②豐富性 vs. 單一性:RNN透過壓縮只能生成「一個」固定長度的背景向量,AM對「每個」個別的輸入,都會提供一個背景向量(Context Vector, CV)給解碼器參考,因此其提供相對豐富的訊息。
    ③重要性 vs. 距離:RNN須一步步提取序列訊息,在長文本上隨著步驟長度的增加,慢慢衰減前面距離較遠的詞特徵訊息,依賴每個詞不同的「相關性」、「重要性」,直接來對特徵值因此與距離無關,也不會因為距離長,而減弱訊息特徵。
    ④正確率高:幫助ED Model正確掌握輸出與輸入的「精確點對點對應關係」,提升了NLP許多任務的精確性。
  2. 注意力機制的主要應用
    RNN + ATT、LSTM + ATT、GRU + ATT、CNN + ATT以及後來發展成三個ATT架構的Transformer等模式。

參考資料
人工智慧-概念應用與管理 林東清著


上一篇
➤D-28 核心應用☞自然語言處理-4(特徵抽取2)
下一篇
➤D-30 核心應用☞自然語言處理-6【完】(主要演算模式2)
系列文
進入AI的世界30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言